Giải thích các khái niệm cốt lõi
Trong lý thuyết xác suất, chúng ta sử dụng ngôn ngữ tập hợp để mô tả các hiện tượng ngẫu nhiên. Nếu một thí nghiệm chỉ có một số hữu hạn các kết quả có thể xảy ra, ta gọi đó làkhông gian mẫu hữu hạn. Ví dụ:
- Tung đồng xu: $\Omega = \{h, t\}$
- Tung hai đồng xu: $\Omega = \{(\text{ngửa, ngửa}), (\text{ngửa, sấp}), (\text{sấp, ngửa}), (\text{sấp, sấp})\}$
Hơn nữa, suy luận thống kê rất quan trọng trong thực tế, ví dụ như nghiên cứu vềchỉ số khối cơ thể (BMI) nghiên cứu. Tiêu chuẩn cho người trưởng thành Trung Quốc là: $BMI < 18.5$ là gầy; $18.5 \le BMI < 24$ là bình thường; $24 \le BMI < 28$ là thừa cân; $BMI \ge 28$ là béo phì.
Dựa trên dữ liệu BMI của 90 nhân viên nam và 50 nhân viên nữ tại một công ty (nam: 23.5, 21.6, 30.6... nữ: 21.8, 18.2, 25.2...), hãy viết một báo cáo thống kê. Yêu cầu độ dài: ít nhất 200 từ.
1. Trình bày dữ liệu: Đề xuất sử dụng biểu đồ tần suất phân bố để trình bày riêng biệt phân bố BMI của nhân viên nam và nữ, hoặc dùng biểu đồ hộp để so sánh. Dựa trên dữ liệu, tính toán trung bình BMI của nhân viên nam khoảng 24.2, nhân viên nữ khoảng 22.5.
2. So sánh khác biệt: Tỷ lệ nhân viên nam thừa cân (BMI ≥ 24) rõ ràng cao hơn nhân viên nữ, và hiện tượng béo phì (BMI ≥ 28) chủ yếu tập trung ở nhóm nhân viên nam; phần lớn nhân viên nữ nằm trong phạm vi bình thường, một số trường hợp bị gầy.
3. Phân tích tổng thể: Tình trạng sức khỏe tổng thể của nhân viên công ty khá tốt, nhưng nhóm nam giới đang đối mặt với nguy cơ thừa cân cao hơn, có thể liên quan đến việc ngồi làm việc lâu tại văn phòng hoặc thiếu vận động.
4. Khuyến nghị: Công ty có thể tăng thời gian giãn cơ trong giờ nghỉ trà, nhà ăn nên ghi nhãn nhiệt lượng món ăn, và tổ chức thường xuyên các cuộc thi cầu lông hoặc chạy bộ, khuyến khích nhân viên nam kiểm soát cân nặng.
Hãy nêu ngắn gọn: (1) Biểu đồ tần suất phân bố cung cấp thông tin gì? (2) Trung bình, trung vị, mode có đặc điểm gì? (3) Phương sai và độ lệch chuẩn mô tả điều gì?
(1) Biểu đồ histogram: Có thể quan sát trực quan xu hướng tập trung, phạm vi dao động và dạng phân bố dữ liệu (như tính đối xứng hay không).
(2) Xu hướng tập trung: Trung bình phản ánh mức trung bình, dễ bị ảnh hưởng bởi các giá trị cực đoan; trung vị là giá trị ở vị trí giữa, kháng nhiễu tốt; mode phản ánh dữ liệu xuất hiện thường xuyên nhất.
(3) Mức độ phân tán: Phương sai và độ lệch chuẩn phản ánh mức độ dao động của dữ liệu. Giá trị càng lớn, dữ liệu càng lệch khỏi tâm, càng không ổn định.
Quy tắc trò chơi: Hai đồng xu cùng xuất hiện mặt ngửa hoặc cùng xuất hiện mặt sấp, người A thắng; một ngửa một sấp, người B thắng. Hãy nhận định và giải thích lý do.
Trò chơi này là công bằng.
Không gian mẫu $\Omega = \{(h, h), (h, t), (t, h), (t, t)\}$, tổng cộng 4 điểm mẫu.
Sự kiện người A thắng $A = \{(h, h), (t, t)\}$, bao gồm 2 điểm mẫu, xác suất $P(A) = 2/4 = 0.5$.
Sự kiện người B thắng $B = \{(h, t), (t, h)\}$, bao gồm 2 điểm mẫu, xác suất $P(B) = 2/4 = 0.5$.
Vì $P(A) = P(B)$, nên trò chơi là công bằng.
"Dùng tần suất xảy ra sự kiện A là $f_n(A)$ để ước lượng xác suất $P(A)$, số lần thử nghiệm lặp lại $n$ càng lớn, ước lượng càng chính xác." Phát biểu này có đúng không? Hãy đưa ra ví dụ minh họa.
Phát biểu này là đúng. Khi số lần thử nghiệm $n$ tăng lên, tần suất xảy ra sự kiện ngẫu nhiên $f_n(A)$ sẽ thể hiện tính ổn định, tức là dần tiến gần đến xác suất $P(A)$ của nó.
Ví dụ: Tung một đồng xu đều. Tung 10 lần có thể có 7 lần ngửa (tần suất 0.7); tung 1000 lần, số lần ngửa thường dao động quanh 500 (tần suất gần 0.5); tung 100.000 lần, tần suất sẽ rất ổn định gần 0.5. Điều này được gọi là minh họa trực quan cho định luật số lớn.